max rank | avg. rank | sentence |
---|---|---|
141 | 69.2500 | Le traitement doit être au moins d'un mois. |
151 | 70.5000 | C’est elle qui avait fait le premier pas. |
162 | 50.7500 | Mais ce n’est pas le cas à Madagascar. |
191 | 86.5000 | C’est une grande première à Madagascar. |
197 | 78.1818 | Mais dans la vie politique ce n’est pas « toujours » le cas. |
216 | 83.5000 | On a fait notre travail et on le fait toujours. |
236 | 84.1429 | « Mais nous sommes encore dans les temps. |
244 | 81.3333 | Mais 4 ans après, il est toujours en place. |
261 | 130.0000 | Et mettre en place une nouvelle Transition. |
261 | 67.5455 | Le traitement sera à mettre en place au cas par cas. |
266 | 82.7222 | Nous sommes une partie de ce que nous avons été, de ce que nous sommes toujours un peu. |
275 | 89.8750 | Ce n’est pas tout le monde qui y va et le service y est de qualité. |
281 | 108.2500 | Les activités ont pris fin une année avant la fin du projet. |
286 | 67.6667 | C’est pour le bien et la sécurité de tous. |
296 | 105.9091 | Un mois après, une grande décision a été prise ce jour. |
297 | 117.8750 | Il devrait se mettre en place cette année. |
297 | 113.2222 | Une politique du marché devrait être mise en place. |
320 | 96.4444 | En effet, c’est la base de développement du pays. |
320 | 139.2727 | On peut faire beaucoup plus mais c'est déjà une bonne base. |
327 | 118.7778 | « La production de riz de 2012 a été bonne. |
327 | 121.2500 | « La production du riz a été très bonne. |
349 | 139.6923 | Des millions de jeunes ne sont actuellement ni au travail ni en formation. |
350 | 134.8889 | Un chef de gouvernement est un chef de gouvernement. |
366 | 132.5000 | La réunion risque de prendre encore du temps. |
369 | 105.8000 | La mise en place du processus a pris du temps. |
377 | 109.7000 | Et ce n’est pas seulement le cas de la capitale. |
379 | 97.4167 | Il ne faut pas mettre tout le monde sur le même plan. |
387 | 150.7500 | Et c’est tant mieux pour tout le monde. |
387 | 110.0000 | Il faut toujours faire mieux que les autres! |
387 | 162.0000 | Mais les autres candidats seront ils mieux? |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II